ارائه روشی ترکیبی برای دسته بندی موضوعی صفحات وب به صورت خودکار
thesis
- وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شیراز - دانشکده کامپیوتر و فناوری اطلاعات
- author یوشا مندنی پور
- adviser رضا اکبری مرضیه احمد زاده
- publication year 1393
abstract
اهمیت دسته بندی موضوعی صفحات وب باعث شده با پیدایش اولین سایت های اینترنتی شرکت های بزرگی مانند یاهو و aol به فکر ارائه سرویس های فهرست وب که وب سایت های مختلف را با کمک نیروی انسانی بر اساس موضوع دسته بندی می کند بیفتند. با افزایش روز افزون تعداد صفحات وب و عدم امکان دسته بندی صفحات وب به صورت دستی و همچنین پیدایش کاربرد های دیگری برای دسته بندی خودکار صفحات وب از قبیل فیلترینگ هوشمند و ایجاد نسل آینده موتور های جستجو گر، تحقیقاتی در این زمینه صورت گرفته که متاسفانه تا کنون نتیجه ای مطلوب و کاربردی حاصل نشده است. در اکثر تحقیقات پیشین در زمینه دسته بندی خودکار صفحات وب تنها از یک، دو و یا نهایتا سه مورد از ویژگی های قابل استخراج از صفحات وب استفاده گردیده است. از جمله این ویژگی ها می توان به استفاده از خواص تگ های html از قبیل تگ های متا،عنوان صفحات، تگ های تاکید، پیوند ها و صفحات همسایه، آدرس صفحات ، موقعیت مکانی کلمات و فرکانس تکرار آنها و نیز استفاده از تکنیک های آنتالوژی اشاره کرد. در روش پیشنهادی که در این پایان نامه ارائه شده است بر روی ترکیب این موارد تمرکز شده و نشان داده شده است که استفاده همزمان از ویژگی های مختلف می تواند به افزایش دقت دسته بندی صفحات وب کمک کند.
similar resources
دسته بندی صفحات وب برای پالایش
مسئل? حفاظت از اقشار آسیب پذیر جامعه در مقابل موارد ناهنجار در صفحات وب، موجب احساس نیاز به پالایش صفحات وب شده است. یکی از جنبه های پالایش صفحات وب که امروزه بیش از پیش مورد توجه قرار گرفته است، طبقه بندی صفحات بر اساس میزان خشونت آمیز بودن آن ها است. طبقه بندی در واقع نسبت دادن یک صفحه به یک یا چند موضوع از پیش تعیین شده با استفاده از الگوهای آموزش داده شده می باشد. سیستم با استفاده از یک سری...
15 صفحه اولارائه روشی برای استخراج خودکار عبارات کلیدی از اخبار وب پارسی
دادگان متنی و از آن جمله متون خبری از حوزههای مهم بازیابی اطلاعات به شمار میرود و استخراج اطلاعات از آنها ضروری است. این امر با استخراج عبارات کلیدی اسناد که دربردارنده محتوای اصلی متن است، صورت میگیرد. در این پژوهش، راهکاری سه مرحلهای جهت استخراج عبارات کلیدی از صفحات خبری وب پارسی، با ترکیب شیوههای زبانشناختی، یادگیری با ناظر، ابتکاری و تعداد نسبتاً جامعی از شیوههای آماری ارائه میشود....
full textارائه روشی مناسب برای دسته بندی نامه های الکترونیکی تبلیغاتی بر مبنای پروفایل کاربران
In general, Spam is related to satisfy or not satisfy the client and isn’t related to the content of the client’s email. According to this definition, problems arise in the field of marketing and advertising for example, it is possible that some of the advertising emails become spam for some users, and not spam for others. To deal with this problem, many researchers design an anti-s...
full textارائه روشی کارا برای دسته بندی مسائل چنددسته ای با رویکرد انتخاب دسته بند
سیستمهای دسته بندی شورایی، رویکردی مؤثر در یادگیری ماشین است که در آن با ترکیب نتایج چند دسته بند سعی می شود تقریب بهتری از یک دسته بند بهینه فراهم شود. در حوزه ترکیب خروجی شورای دستهبندها، رویکرد «انتخاب دستهبند» توجه کمتری را در مقایسه با رویکرد «ادغام دسته بند» به خود جلب کرده است. همچنین، اغلب روشهای موجود در این حوزه، هزینه محاسباتی بالایی دارند. در این مقاله، روشی مؤثر در دسته بندی مسائل ...
full textارائه روشی جدید برای شاخصگذاری خودکار و استخراج کلمات کلیدی برای بازیابی اطلاعات و خوشهبندی متون
Persian words in writing with a diverse and cover all modes of grammatical words with the recruitment of a series of specific rules because it is impossible to extract keywords automatically from Persian texts difficult and complex. This thesis has attempted to use linguistic information and thesaurus, keywords Mnatry be provided. Using the symbol system is structured network can be keywords, i...
full textروشی کارا برای پیادهسازی موازی الگوریتم دسته بندی بسته درخت سلسلهمراتبی بر روی واحد پردازش گرافیکی
چکیده: دستهبندی بستهها، پردازشی اساسی در پردازندههای شبکهای است. در این فرآیند، بستههای ورودی از طریق تطبیق با مجموعهای از فیلترها به جریانهای مشخص طبقهبندی میشوند. پیادهسازیهای نرمافزاری الگوریتمهای دستهبندی با وجود هزینه کمتر و توسعهپذیری بیشتر نسبت به پیادهسازیهای سختافزاری، سرعت پایینتری دارند. در این مقاله، از قابلیت پردازش موازی پردازندههای گرافیکی برای تسریع الگوری...
full textMy Resources
document type: thesis
وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شیراز - دانشکده کامپیوتر و فناوری اطلاعات
Hosted on Doprax cloud platform doprax.com
copyright © 2015-2023